Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

نویسنده

  • Mathias Rossignol
چکیده

Semantic lexicons are an essential resource to let many natural language process-ing applications (automatic summarization, information retrieval, automatic transla-tion, etc.) penetrate the meaning of a text. The relevance of the information gathered bythose lexicons raises a problematic question: the meaning of a word likesoap, for ex-ample, varies considerably whether it is considered in a sanitary or televisual context.A linguistically motivated and cost-effective way of building semantic lexicons pre-cisely adapted to a certain domain of expression consists in “learning” word meaningsfrom their actual usage as observed in a representative collection of texts, or corpus. To answer this challenge, we propose in this document a three-stage methodol-ogy for the automatic acquisition of lexical semantic information from texts, based onthe linguistic principles of F. Rastier’s Interpretative semantics. Thanks to a statisticalanalysis of word uses, employing both classical and novel methods, we first man-age to bring together words belonging to a same domain (for exampledata, transfer,network for IT), then to build classes of words having a similar meaning (data andinformation). We finally propose a first method to put to light fine-grained meaningdistinctions between close words(data is more “concrete” than information), thusreaching a level of meaning refinement never before attained, to our knowledge, byautomatic means.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité

Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...

متن کامل

Acquisition d'informations lexicales à partir de corpus Cédric Messiant et Thierry Poibeau

Introduction L’existence de gros corpus (plusieurs millions de mots) et d’analyseurs syntaxiques performants fait qu’il est actuellement possible d’extraire automatiquement des connaissances à large couverture sur les mots et les constructions associées, directement à partir de corpus. Cette démarche permet d’obtenir des lexiques très complets à moindre coût, avec également des informations sur...

متن کامل

Exploitation de l'asymétrie entre termes pour l'extraction automatique de taxonomies à partir de textes

Résumé. Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l’hypothèse forte selon laquelle l’accumulation de faits statistiques simples sur les usages en corpus permet d’approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme ca...

متن کامل

Exploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale

RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...

متن کامل

Analyse statique par interprétation abstraite de systèmes hybrides

ion de la partie continue Dans ce chapitre, nous présentons une abstraction de la partie continue des systèmes hybrides décrits au chapitre 5. Notre but est d’utiliser les algorithmes d’intégration garantie présentés au chapitre 3 comme une abstraction, au sens de l’interprétation abstraite, de la sémantique de la partie continue. Nous commençons donc par définir intuitivement les conditions qu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005